5 research outputs found

    Advances in Subspace-based Solutions for Diarization in the Broadcast Domain

    Get PDF
    La motivación de esta tesis es la necesidad de soluciones robustas al problema de diarización. Estas técnicas de diarización deben proporcionar valor añadido a la creciente cantidad disponible de datos multimedia mediante la precisa discriminación de los locutores presentes en la señal de audio. Desafortunadamente, hasta tiempos recientes este tipo de tecnologías solamente era viable en condiciones restringidas, quedando por tanto lejos de una solución general. Las razones detrás de las limitadas prestaciones de los sistemas de diarización son múltiples. La primera causa a tener en cuenta es la alta complejidad de la producción de la voz humana, en particular acerca de los procesos fisiológicos necesarios para incluir las características discriminativas de locutor en la señal de voz. Esta complejidad hace del proceso inverso, la estimación de dichas características a partir del audio, una tarea ineficiente por medio de las técnicas actuales del estado del arte. Consecuentemente, en su lugar deberán tenerse en cuenta aproximaciones. Los esfuerzos en la tarea de modelado han proporcionado modelos cada vez más elaborados, aunque no buscando la explicación última de naturaleza fisiológica de la señal de voz. En su lugar estos modelos aprenden relaciones entre la señales acústicas a partir de un gran conjunto de datos de entrenamiento. El desarrollo de modelos aproximados genera a su vez una segunda razón, la variabilidad de dominio. Debido al uso de relaciones aprendidas a partir de un conjunto de entrenamiento concreto, cualquier cambio de dominio que modifique las condiciones acústicas con respecto a los datos de entrenamiento condiciona las relaciones asumidas, pudiendo causar fallos consistentes en los sistemas.Nuestra contribución a las tecnologías de diarización se ha centrado en el entorno de radiodifusión. Este dominio es actualmente un entorno todavía complejo para los sistemas de diarización donde ninguna simplificación de la tarea puede ser tenida en cuenta. Por tanto, se deberá desarrollar un modelado eficiente del audio para extraer la información de locutor y como inferir el etiquetado correspondiente. Además, la presencia de múltiples condiciones acústicas debido a la existencia de diferentes programas y/o géneros en el domino requiere el desarrollo de técnicas capaces de adaptar el conocimiento adquirido en un determinado escenario donde la información está disponible a aquellos entornos donde dicha información es limitada o sencillamente no disponible.Para este propósito el trabajo desarrollado a lo largo de la tesis se ha centrado en tres subtareas: caracterización de locutor, agrupamiento y adaptación de modelos. La primera subtarea busca el modelado de un fragmento de audio para obtener representaciones precisas de los locutores involucrados, poniendo de manifiesto sus propiedades discriminativas. En este área se ha llevado a cabo un estudio acerca de las actuales estrategias de modelado, especialmente atendiendo a las limitaciones de las representaciones extraídas y poniendo de manifiesto el tipo de errores que pueden generar. Además, se han propuesto alternativas basadas en redes neuronales haciendo uso del conocimiento adquirido. La segunda tarea es el agrupamiento, encargado de desarrollar estrategias que busquen el etiquetado óptimo de los locutores. La investigación desarrollada durante esta tesis ha propuesto nuevas estrategias para estimar el mejor reparto de locutores basadas en técnicas de subespacios, especialmente PLDA. Finalmente, la tarea de adaptación de modelos busca transferir el conocimiento obtenido de un conjunto de entrenamiento a dominios alternativos donde no hay datos para extraerlo. Para este propósito los esfuerzos se han centrado en la extracción no supervisada de información de locutor del propio audio a diarizar, sinedo posteriormente usada en la adaptación de los modelos involucrados.<br /

    Estudio de métodos de diarización en un entorno de broadcast

    Get PDF
    El auge de las técnicas de procesado de voz es una realidad, aunque en bastantes casos, para lograr sus objetivos requieren ser aplicadas sobre audio procedente de un único locutor. Puesto que estas condiciones no son fácilmente replicables en la realidad, se llevarán a cabo técnicas para separar los diferentes locutores, denominadas técnicas de Diarización. Este proyecto trabajará las técnicas de Diarización en un entorno de radiodifusión o Broadcast, no muy trabajado en la bibliografía, aunque de gran complejidad, al tener que realizar la separación de un número desconocido de locutores, cuyas distribuciones de audio no son uniformes, aparte de estar contaminados tanto por ruido como por musica. En estas circunstancias, y debido a la gran cantidad de posibilidades existentes en la bibliografía, el proyecto centrará sus esfuerzos en la etapa más afectada por combatir todas estas dificultades, la etapa de Clustering. Además, se formalizará un sistema de Diarización completo, cuya etapa de Clustering será aquella obtenida en este proyecto, con la intención de comparar con otros sistemas presentes en la bibliografía

    ViVoVAD: a Voice Activity Detection Tool based on Recurrent Neural Networks

    Get PDF
    Voice Activity Detection (VAD) aims to distinguishcorrectly those audio segments containing humanspeech. In this paper we present our latest approachto the VAD task that relies on the modellingcapabilities of Bidirectional Long Short TermMemory (BLSTM) layers to classify every frame inan audio signal as speech or non-speec

    I4U System Description for NIST SRE'20 CTS Challenge

    Full text link
    This manuscript describes the I4U submission to the 2020 NIST Speaker Recognition Evaluation (SRE'20) Conversational Telephone Speech (CTS) Challenge. The I4U's submission was resulted from active collaboration among researchers across eight research teams - I2^2R (Singapore), UEF (Finland), VALPT (Italy, Spain), NEC (Japan), THUEE (China), LIA (France), NUS (Singapore), INRIA (France) and TJU (China). The submission was based on the fusion of top performing sub-systems and sub-fusion systems contributed by individual teams. Efforts have been spent on the use of common development and validation sets, submission schedule and milestone, minimizing inconsistency in trial list and score file format across sites.Comment: SRE 2021, NIST Speaker Recognition Evaluation Workshop, CTS Speaker Recognition Challenge, 14-12 December 202

    Segmentación automática de audio con modelos basados en redes neuronales para entornos Broadcast

    No full text
    Debido al aumento de generación de contenido multimedia los sistemas que permiten extraer información de forma automática de este tipo de señales se están volviendo cada vez más importantes. Un ejemplo de estos son los sistemas de segmentación automática de audio, sobre los que se centra este Trabajo Fin de Máster. El objetivo de un sistema de segmentación de audio es obtener una indexación a bajo nivel para poder separar entornos acústicos distintos en la señal de audio. En concreto, en este Trabajo Fin de Máster se pretende separar aquellos fragmentos que contengan voz, música, ruido o una combinación de estos. El acercamiento que se propone a la tarea de segmentación toma como núcleo del sistema el aprendizaje supervisado mediante redes neuronales. De las diferentes arquitecturas neuronales disponibles, el sistema implementado esta basado en Redes Neuronales Recurrentes por su capacidad para el modelado de secuencias temporales. Tras una serie de experimentos iniciales donde se ajustaron los parámetros principales que rigen la arquitectura neuronal, se realizó una exploración de las posibilidades que brindaba el espacio de características de entrada. Por un lado, se aumentó la resolución del análisis frecuencial lo que se tradujo en una mejora relativa del 5,42% del error obtenido. Por otro lado, con el objetivo de aumentar la discriminación en las clases que contienen música, se introdujeron las características chroma obteniendo una mejora relativa del error del 6,04%. Teniendo en cuenta la alta correlación entre muestras adyacentes en la señal de audio se evaluaron diferentes técnicas de refuerzo del contexto a corto plazo en la clasificación como el apilado temporal o el uso de capas convolucionales, lo que se tradujo en una mejora relativa del 2,63%. Finalmente, sobre una de las mejores configuraciones obtenidas, se realizaron una serie de experimentos para caracterizar el sistema de resegmentación propuesto, basado en Modelos Ocultos de Markov y con el objetivo de refinar la salida de la red neuronal. Con este bloque se consiguió reducir considerablemente el error en la segmentación, obteniendo el mejor resultado de este Trabajo Fin de Máster y resultando en una mejora relativa cercana al 12%. A la vista de los resultados obtenidos en este Trabajo Fin de Máster, se ha conseguido obtener un sistema de segmentación automático con resultados competitivos, llegando a mejorar ligeramente los mejores resultados de la literatura hasta la fecha
    corecore